ELT (Extract-Load-Transform)
ETL (Extract-Transform-Load)
Extract/Transform/Load - Wikipedia
Extract : data source から data を引っ張り出す
RDB、Salesforce、Excel 等から
BigQueryBigQuery.icon から直接 Google Spreadsheet を引ける
逆に Google Spreadsheet から BigQueryBigQuery.icon を引いて可視化も出來る
Transform : 分析し易い形に data を整える
分析 query に優しい schema を作る
ここが BigQueryBigQuery.icon 等では不要になった
Snowflake: クラウドデータプラットフォーム | Snowflakeはだうなのかなぁ?
その他前處理
tool
dbt (data building tool)dbt (data building tool).icon
轉送
Fluentd、Embulk
bq コマンドライン ツールの使用  |  BigQuery  |  Google Cloud
workflow engine
Google Dataflow
Dataflow  |  Google Cloud
Load : 分析 DB に data を入れる
ELT (Extract-Load-Transform)
Extract, load, transform - Wikipedia
生の data を使へるやうにしておく
data は保存時ではなく利用時に變換する
ただし法的に滿たさねばならない要件――例へば PII (personal identifable information) 等――の處理を除く
data は保存時ではなく利用時に集約する
BigQueryBigQuery.icon
index 無しでクソデカ table から SELECT できたり、クソデカ table 同士を JOIN できたりするので、ETL の Transform で分析の幅を狭めてしまわなくてもよい
ETLT (Extract-Transform-Load-Transform)
Extract : data source から data を引っ張り出す
(Transform) : PII (個人情報) の mask、畫像等非構造化 data からの抽出、storage の節約等
詰まり前處理
BigQuery ML で非構造化 data の處理は後段の T で出來るものが增えた
Load : 分析 DB に data を入れる
Transform : 分析用の view を作る
ETL の T の一部がここに來てゐる
PythonPython.icon や JavaJava.icon ではなく SQL で變換するので、利用者に近い人が運用出來る
決定を遲らせる。JIT (just in time)
data の民主化
data 基盤の 3 層 architecture